人間の耳の不思議

                をもっと考えてみる(後編)

                                                編集部:舩本昇竜


 で、といいますか、当初の予定では今回、「DSPボードで『人間の耳の不思議』 をリアルタイム処理」なんてことを考えていたのです。ですが、すでにご存じの 通り、ちょっと、実現先送り(?)な状態になりましたので、今回は予定を大幅 に変更し、純粋に先月作成した倍速音声再生プログラムの動作について解説した いと思います。 ○結果はシンプルそのもの/思考錯誤は複雑そのもの  まずは、先月の復習(?)ですが、 ●早口(やっぱり2倍速)だけと理解出来るDX社交場 =非対応メニューです  というような、いわゆる「倍速ビデオ」みたいなことを行ってみました。  まずは、この倍速再生の原理を説明しましょう。分かってしまえば、拍子抜け する程簡単だったりします。 1:まず、処理する音声を1/8秒単位で区切ります(つまり、サンプリ   ング期間は1/8秒ということです) 2:この領域をさらに100等分し、便宜上1~100というブロック   番号を付けます。 3:最初に、1~42番のブロックをそのまま再生します。 4:次に、60~67番のブロックをそのまま再生します。 5:最後に、75番のブロックの音声とランダムノイズを掛け合わせ   (まぜこぜに近いイメージかな)、再生します。  以上。たったこれだけです。100のブロック中50しか再生していないので、 再生時間はオリジナルデータの半分になります。つまり、2倍速です。  処理そのものは簡単なのですが、この「簡単」をみつけるまでには、かなりの 数のトライアンドエラーを繰り返しましたモノです。 ○早口にならない倍速再生  さて、上記の倍速再生では、「ちょっと早口かな」といった印象が拭えません。 しかし、「あまり早口でない倍速再生」も出来なくはありません。まぁ、オチは あるのですが。 ●早口でない倍速再生 =非対応メニューです  おわかりになられた方もいらっしゃると思いますが、この方法だと、入力音声 によっては、明らかに、言葉が抜け落ちてしまうという欠点があります。そうで す。今ココでみてもらっている倍速再生アルゴリズムには、おもいっきり、得意 /不得意があるのです。というより、好みの問題かもしれません。  例えば、(これは私の趣味の問題でもあるのですが)早口倍速再生であれば、 多少音声が早口になるものの、まくしたてるような台詞も、極端な話、ラップミ ュージックであっても、1つ1つの音を認識することができます。対して、早口 でない倍速再生は、文字通り倍速再生時においても早口になりませんが、台詞が、 ちょっと早くなるだけで、連続した音が等間隔で抜け落ちてしまいます。  ということで、段々早口でなくなるようデータをならべてみます。実際に聞き 比べてみましょう。 ↑↑↑ より早口に(音落ちが気にならない) ●プログラム標準(約1/8秒間隔) =非対応メニューです ● (約1/6秒間隔) =非対応メニューです ● (約1/4秒間隔) =非対応メニューです ● (約1/2秒間隔) =非対応メニューです ● (約3/4秒間隔) =非対応メニューです ● (約1秒間隔) =非対応メニューです ↓↓↓ より標準速度に(音落ちが目立つ)  短いですが、今回は、ここまで。皆さんも興味があれば、倍速音声コンバータ (X2AN.X)でいろんなソースを倍速再生してみてください。  例えば、上にある、「(約1秒間隔)」のデータを作る時は、 @>X2AN infile.p16 outfile.p16 /D15650 というようにコマンドを実行します。それではまた(って、続くんかい)。 (EOF)